Rastreando las dinámicas del rechazo: Explotando trayectorias latentes de rechazo para una detección robusta de jailbreak
<meta name=description content=Detección robusta de jailbreak mediante trayectorias latentes de rechazo. Método innovador para identificar ataques en modelos de lenguaje y mejorar la seguridad.>